加速推理工具
Xinference 是什么?
Xinference 是一个分布式的模型推理框架
chatglm.cpp
chatglm.cpp 是一个 ChatGLM 的加速推理工具
检查有没有安装 cmake
,如果没有则安装,则先安装 https://cmake.org/
把下面这个目录的文件
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.1\extras\visual_studio_integration\MSBuildExtensions
都丢到
C:\Program Files\Microsoft Visual Studio\2022\Community\MSBuild\Microsoft\VC\v170\BuildCustomizations
修改 setup.py
文件
cmake_args = [
# 加上这个才能使用 GPU
f"-DGGML_CUBLAS=ON",
]
触发构建
pip install .